Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

نویسنده

  • Aurélien Lauf
چکیده

RÉSUMÉ. Ce papier aborde la question de la classification non supervisée de documents, dans un contexte de veille sur le Web (corpus de taille moyenne). Notre but est d’assister le veilleur dans deux tâches : 1. dégager des thématiques à partir du corpus ; 2. ranger chaque texte dans une ou plusieurs de ces thématiques. Nous proposons une approche linguistique, reposant sur les plus proches voisins partagés dans un graphe de cooccurrences. Nos thématiques peuvent se chevaucher (partager des mots) et ne sont pas uniquement des ensembles de mots : le formalisme de la théorie des graphes nous permet d’exprimer concrètement des relations sémantiques fines entre les mots de chaque thématique. Les premiers résultats sont très encourageants.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Estimation de la densité d'arcs dans les graphes de grande taille : une alternative à la détection de clusters

Résumé. La recherche de structures dans les graphes est un sujet étudié depuis longtemps, qui a bénéficié d’un regain d’intérêt avec la mise à disposition de graphes de grande taille sur le web, tels les réseaux sociaux. De nombreuses méthodes de recherche de clusters “naturels” dans les graphes ont été proposées, fondées notamment sur la modularité de Newman. On introduit dans cet article une ...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

Théorie Statistique De L’apprentissage

inversibles. I.2.1) Même question que I.1.1) pour un code binaire préfixe : trouver un code binaire préfixe de longueur moyenne minimum sous p. I.2.2) Même question que I.1.2) pour un code binaire préfixe : calculer la longueur moyenne minimum d’un code préfixe sous p. I.3.1) Même question que I.1.1) pour un code binaire préfixe n’utilisant que des mots de longueur paire : trouver un code binai...

متن کامل

Extraction sous contraintes d'ensembles de cliques homogènes

Résumé. Nous proposons une méthode de fouille de données sur des graphes ayant un ensemble d’étiquettes associé à chaque sommet. Une application est, par exemple, d’analyser un réseau social de chercheurs co-auteurs lorsque des étiquettes précisent les conférences dans lesquelles ils publient. Nous définissons l’extraction sous contraintes d’ensembles de cliques tel que chaque sommet des clique...

متن کامل

Investigation visuelle d'événements dans un grand flot de liens

Résumé. Nous présentons une nouvelle méthode d’analyse exploratoire de grands flots de liens que nous appliquons à la détection d’événements significatifs dans plus de 2 millions d’interactions (pendant 4 mois) entre utilisateurs du réseau social en ligne Github. Nous combinons une méthode statistique de détection automatique d’événements dans une série temporelle, Outskewer, avec un système de...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012